查看原文
其他

AI 大模型淘金时代,淘金的铲子和勺子是什么?

开放隐私计算 开放隐私计算 2024-01-09


2023年4月22日,陆奇在上海举行小规模演讲,主题为《我的大模型世界观》。陆奇是谁?奇绩创坛创始人兼CEO,中国AI布道人,也是中国针对大模型最有发言权的人之一。演讲在业界引发轰动,霸榜科技圈各大头条。在大模型、AIGC、人工智能进化的风口上,我们需要这样的“观点输出+理念碰撞+思想交汇”。



数据是金矿,还是勺子铲子?

演讲中提到了一个观点:“这个时代跟淘金时代很像,如果你那个时候去加州淘金,一大堆人会死掉。但是卖勺子、卖铲子的人永远可以赚钱。”

对于大模型来说,OpenAI是当前最成功的淘金客。根据4月28号TechCrunch看到的文件,OpenAI的估值为270亿至290亿美元。那么金矿是什么?铲子和勺子怎么理解呢?谁又是卖铲子勺子的人呢?

对于这个问题,我们首先得知道勺子铲子是什么。陆奇演讲中还有一段观点:

基于此,我们可以得出一个简单结论。今天大部分数字化产品和公司,包括Google、微软、阿里、字节,本质是信息搬运公司。一定要记住,我们所做的一切,一切的一切,包括在座的大部分企业都在搬运信息。Nothing more than that,You just move bytes(仅此而已,你只是移动字节)。但它已经足够好,改变了世界。

显然,数据并不是金矿,在数据里成长出来的成功商业模式才是金矿。数据,反而更像是一个铲子和勺子,它们本质是信息,是“特征表示”。谁都可以使用它们去探索新的商业模式,前互联网时代本质上就是对它们的粗浅运用。

大模型时代,我们看到了对数据的更精细化运用,大模型的训练、进化都离不开数据,或者说大模型的本质是在搬运海量数据的同时提炼它们,运用它们——ChatGPT这类智能工具是在提炼结果之上做针对性、智能化地推送,就造就了AI强大的“理解力”,也催生了人工智能的真正苗头。
那么谁在卖勺子、卖铲子?谁拥有数据,谁就是那些卖勺子、铲子的人。随着金子被发现,他们也终于意识到了这个问题,于是曾经在路边供人免费使用的勺子和铲子,突然变得水涨船高,纷纷宣布不再“免费”。



《科创板日报》4月19日报道,美国访问量最大的社交网站之一Reddit宣布将向使用其API训练AI聊天机器人的公司收取数据使用费,其中包含微软、谷歌、OpenAI等。
随后,IT问答网站Stack Overflow宣布,计划从今年年中起,向大型AI开发商收取数据访问费用,付费后才可以获取该平台上的5000万个问题与答案。环球音乐集团(Universal Music Group)近日也发出警告,阻止AI服务从其受版权保护的歌曲中抓取旋律和歌词。
另一位大名鼎鼎的“工具主”马斯克已经开始明码标价——马斯克已提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文。近期马斯克刚刚指控微软非法使用推特数据来训练其AI模型,还直言“诉讼时间到”,警告要起诉微软。

挖金矿离不开铲子和勺子,那么如何拿到质量好的铲子和勺子(数据),决定了你能否在这个淘金时代,真正掌握主动权。那么如何才能掌握主动权呢?可以分两个视角来看,一是如何拿到高质量的数据来源,二是如何确保数据安全的使用问题。

人们常说“贵的东西唯一的缺点就是贵”,数据可能也是如此,高质量的数据往往对大模型的效果起到关键性作用,同时在数据来源层面的门槛和成本也比较高。

此外,隐私数据往往更博得淘金客青睐,因为公开数据的个性化偏弱,这对大模型成果追求的“智能化”和“理解力”贡献稍差。隐私数据的安全使用问题可能是掣肘大模型发展的核心问题。

高质量数据在哪里?

华尔街见闻·见智研究认为:对于大模型训练来说,能否得到优质的大模型与投入的数据质量关系密切,包括通用参数、文本语言、图像、视频音频等,投入数据的质量高低,会直接影响模型最终生成的内容。

然而早在去年,一项来自 Epoch AI Research 团队的研究向我们抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。

研究结果表明高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到 2040 年,模型的规模增长将放缓。

AI模型的持续进化,需要的就是源源不断的高质量新数据源,这些数据源来源有两方面,一方面是现有的大工具主——各大科技公司在源源不断的产生新数据,另一方是因各种原因,尚未被利用起来的历史数据。

现有的“工具主”纷纷改变策略,提高数据的使用门槛,有的从价格成本上,有的直接从入口资格上,不管是过去的历史数据积累,还是未来新产生的数据,使用成本将是绕不过去的一个槛。

另一方面,对于那些尚未被利用起来的数据,则需要在数据的确权、资产定价和流通交易上推动成熟的数据市场建设。特别是以下三方面:

1.公共数据建设。公共数据规模庞大,是大模型训练的基础,需要构建全球互联互通的公共数据资源管理机制,完善数据资源目录,优化数据共享协调机制。

2.数据资产建设。数据资产不仅仅属于“数据管理方”,更属于每一个“数据生产者”,我们不仅要引导企业强化数据资产理念,更要在用户中普及数据资产概念,这样才能全民共创高质量数据。

3.数据交易建设。数据交易需要平台支撑,平台需要提供数据交易、结算、交付、安全保障等基础服务及数据托管、加工、经纪等综合配套服务。

所以未来在这个淘金时代能走多远,算力、模型和数据三大要素里,算力和模型的挑战将远远比不上“数据”带来的挑战,算力即将得到解决,关于模型,OpenAI已经趟出了一条成熟路径。最后能走多远,全看数据——你能否拥有足够高质量的数据来喂养模型,你是否有足够高质量的数据来支撑模型的不断迭代?

从这个角度看,现在已经入场的玩家们,靠模型优势领先的玩家,如果无法解决新数据的来源问题,很有可能被有用庞大数据量,和新数据来源的新玩家所取代。

而那些拥有庞大数据使用权的玩家,比如各大城市的公共数据运营方,也有了自己的机会,他们并不比天然拥有数据持续来源的互联网公司差。

数据安全使用关键

数据从来源开始,经历存储、传输、使用、回收、销毁等一个完整的生命周期,在这个周期里,数据拥有方和使用方都需要考虑一个问题,那就是该如何保障这些数据的安全,不被他人窃取破坏。

如果说算力、模型和数据源,决定了一个大模型能走多远,能走多快,那么数据安全则关系到了这个模型走的稳不稳。

这个稳不稳,上有政策监管,下有每个人对于隐私的不同诉求,淘金客们在这方面需要考虑多方面的平衡,其中比较关键的主要有以下三个方面:

1.大模型依靠大量的个人隐私数据来训练

大模型使用从各种来源收集的数据集进行训练,包括社交媒体、公共论坛以及其他我们暂未得知的渠道。这意味着模型实际上在不断地接触我们生活中的各种场景,其中可能包含隐私信息。

2.企业组织也关注到大模型带来的安全隐患

大多数企业组织在处理数据时都需要考虑到数据安全,因此企业数据能否被大模型接触到是一个关键问题。根据韩国媒体 Economist 的报道,出于担心可能发生的内部机密信息泄露,三星一直阻止其员工在工作场所使用 ChatGPT。

3.数据跨境流动带来的国家安全问题需要被重视

数据的跨境流动也带来了安全风险,特别是涉及个人信息、敏感信息和国家安全等重要数据时,更需要注意数据安全问题。我国《网络安全法》、《数据安全法》、《个人信息保护法》等法律对数据出境的规定非常严格,必须遵守。

那么如何保障呢?另一方玩家——隐私计算厂商纷纷入场,开始为大模型的数据使用保驾护航。

比如在开源方面,近日国内首个全栈开源隐私计算平台PrimiHub开源了联邦学习大模型,实现了基于联邦学习的大模型训练和预测。让AI大模型服务的开发和使用门槛大大降低。

同时,联邦学习隐私计算开源平台FATE正式发布联邦大模型FATE-LLM功能模块。通过将联邦学习和大模型结合,FATE-LLM在各参与方的敏感数据不出本地域的前提下,根据各方实际数据量进行算力投入,联合进行大模型训练。

最大的淘金客自身也在表明态度,4月6日凌晨,OpenAI在官网发布了ChatGPT安全方法(Our approach to AI safety),从六个方面出发,来考虑系统的安全问题:构建安全、可靠的AI产品,从实践中学习、优化、改善,保护儿童,尊重隐私,提高生成数据准确性,持续的研究和参与。

所以,通过隐私计算则可实现敏感数据价值的可控使用,这将成为特定领域大模型的必由之路。

各大玩家们除了数据源以外,各自的数据安全解决方案,在未来也将会成为胜出的关键,而这将是隐私计算领域又一个新的增长机会。

淘金时代,有些人专注于入场淘金,有些人则在旁出售工具,也有些人为淘金提供安全服务、平台服务甚至善后服务。

聚焦不同的角色,提供多样的价值,才能让 AIGC 时代快速且平稳的到来,继而真正改变我们的生活,让这个时代更加繁荣!关注“开放隐私计算”,聚焦隐私计算对各个领域赋能升级,安全释放数据价值。

END
热门文章:




隐私计算头条周刊(4.17-4.23)


获奖名单公布!2022隐私计算HACKATHON大赛圆满落幕!


让更多人参与AIGC未来,PrimiHub 联邦学习大模型开源!


好书相赠!《机密计算:AI数据安全和隐私保护》


深度盘点 | 隐私计算 x 国家自然科学基金项目

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存